Meta의 ReAgent

1. 소개

1.1 ReAgent의 정의 및 핵심 철학 (Definition and Core Philosophy of ReAgent)

ReAgent는 Meta(구 Facebook)가 내부적으로 개발하고 사용해 온 응용 강화학습(Applied Reinforcement Learning, RL)을 위한 오픈 소스 엔드투엔드(end-to-end) 플랫폼이다.1 이 플랫폼은 Python을 기반으로 구축되었으며, 모델링과 학습에는 PyTorch를, 모델 서빙에는 TorchScript를 활용한다.3 ReAgent의 핵심적인 설계 목표는 대규모 추천 시스템 및 최적화 문제와 같이 실제 산업 환경에서 발생하는 복잡한 의사결정 문제를 해결하는 데 있다.4

ReAgent의 근간을 이루는 철학은 학술적 연구 환경과는 본질적으로 다른 산업 환경의 고유한 제약 조건들을 정면으로 마주하고 해결하려는 시도에서 비롯된다. 이러한 제약 조건은 크게 세 가지로 요약할 수 있다. 첫째, **대규모 데이터셋(Large Datasets)**이다. 페이스북과 같은 글로벌 서비스에서는 하루에도 수백만에서 수십억 건에 이르는 방대한 양의 사용자 상호작용 데이터가 생성된다.4 둘째, **느린 피드백 루프(Slow Feedback Loop)**다. 게임 환경과 같이 즉각적인 보상이 주어지는 시뮬레이터와 달리, 실제 서비스에서는 특정 결정(예: 알림 발송)에 대한 사용자의 최종 반응(예: 앱 재방문)을 확인하기까지 수 시간에서 수일이 소요될 수 있다.5 셋째, **시뮬레이터의 부재(Absence of a Simulator)**다. 실제 사용자 경험을 완벽하게 모사하는 시뮬레이터를 만드는 것은 거의 불가능하며, 잘못된 정책을 온라인 환경에서 직접 실험하는 것은 막대한 비용과 위험을 수반한다.2

이러한 산업적 현실은 ReAgent가 자연스럽게 오프라인 강화학습, 즉 배치(batch) 강화학습 패러다임을 채택하게 만들었다.2 오프라인 RL은 사전에 수집된 정적인 데이터 로그만을 사용하여 정책을 학습하며, 학습 과정에서 환경과의 추가적인 상호작용을 허용하지 않는다. 따라서 ReAgent의 아키텍처는 단순히 최신 RL 알고리즘을 구현하는 것을 넘어, 대규모 데이터를 효율적으로 처리하고, 오프라인 데이터의 한계 속에서 신뢰할 수 있는 정책을 학습하며, 배포 전에 그 성능을 안전하게 예측하는 전 과정에 초점을 맞추고 있다. 이처럼 ReAgent의 설계는 산업 환경의 근본적인 ’문제’가 플랫폼의 ‘솔루션’ 구조를 정의한 전형적인 사례로 볼 수 있다. 대규모 로그 데이터, 시뮬레이터 부재, 위험성 높은 온라인 실험이라는 제약 조건이 오프라인 RL 패러다임을 필연적으로 만들었고, 이는 다시 오프라인 RL의 핵심 난제인 분포 이동(Distributional Shift) 문제 해결의 필요성으로 이어졌다. 결국, 이 문제를 해결하기 위한 오프라인 정책 평가(Counterfactual Policy Evaluation, CPE) 스위트가 ReAgent 아키텍처의 핵심 구성 요소로 자리 잡게 된 것이다. 이는 ReAgent가 단순한 알고리즘 라이브러리가 아닌, 산업적 RL의 근본 문제에 대한 체계적인 해답을 담은 ’플랫폼’으로 불리는 이유를 명확히 설명한다.

플랫폼의 명칭 변경 또한 이러한 철학의 확장을 반영한다. 초기 “Horizon“이라는 이름으로 시작된 이 프로젝트는 강화학습을 넘어 의사결정(decision making)과 추론(reasoning)이라는 더 넓은 범위의 문제들을 포괄하기 위해 “ReAgent“로 개명되었다.2 이는 플랫폼이 특정 알고리즘의 구현을 넘어, 데이터를 기반으로 합리적인 결정을 내리는 모든 시스템을 지원하겠다는 비전을 담고 있다.

1.2 개발 역사 및 현재 상태 (Development History and Current Status)

ReAgent의 전신인 Horizon은 페이스북의 실제 프로덕션 환경에서 발생하는 문제들을 해결하는 과정에서 탄생하고 발전했다.4 대표적으로 푸시 알림 최적화, 뉴스피드 개인화, 동영상 추천 등 핵심적인 서비스에 적용되어 지도학습 기반 시스템을 성공적으로 대체하며 그 성능을 입증했다.7 이러한 성공 사례를 통해 Horizon은 대규모 산업 환경에서 RL을 적용하기 위한 실질적인 노하우와 기술 스택을 축적했다.

하지만 기술의 발전과 Meta의 전략적 변화에 따라, ReAgent는 2025년 기준으로 공식적으로 아카이브(archived)되었으며 더 이상 활발하게 유지보수되지 않는다.2 이는 ReAgent가 기술적 수명을 다했다기보다는, 그간의 경험과 교훈을 바탕으로 더 발전된 형태의 프레임워크로 진화했음을 시사한다.

실제로 Meta의 응용 강화학습 팀은 ReAgent의 후속 프로젝트로 “Pearl“이라는 새로운 라이브러리를 개발하여 오픈소스로 공개했다.9 Pearl은 “프로덕션 레디(production-ready)“를 표방하는 RL 에이전트 라이브러리로, ReAgent의 철학을 계승하면서도 더욱 높은 모듈성과 유연성을 제공하는 것을 목표로 한다.10 현재 Meta는 사용자들에게 최신 기술 지원과 개발을 위해 ReAgent 대신 Pearl을 사용할 것을 권장하고 있다.2

ReAgent의 아카이빙과 Pearl의 등장은 Meta의 RL 전략이 어떻게 진화했는지를 보여주는 중요한 지표다. ReAgent는 특정 대규모 문제(알림, 추천 등)를 해결하기 위해 고도로 통합된 엔드투엔드 시스템으로 구축되었다.4 반면, Pearl은 사용자가 지능적 탐색, 안전성, 동적 행동 공간 등 필요한 기능을 레고 블록처럼 조합하여 자신만의 맞춤형 에이전트를 만들 수 있도록 설계된 고도의 모듈식 툴킷이다.9 이러한 변화는 특정 문제에 대한 ’일체형 솔루션’에서 다양한 문제에 범용적으로 적용 가능한 ’프레임워크’로의 전환을 의미한다. 이는 RL 기술이 성숙함에 따라, 하나의 거대한 플랫폼이 모든 것을 해결하는 방식에서 벗어나, 연구자와 개발자가 더 유연하게 실험하고 다양한 애플리케이션을 구축할 수 있도록 지원하는 생태계로 발전하고 있다는 거시적인 기술 트렌드를 반영한다.

1.3 본 안내서의 목적과 구성 (Purpose and Structure of This Guide)

본 문서는 Meta의 ReAgent 플랫폼에 대한 심층적인 기술 안내서를 제공하는 것을 목적으로 한다. ReAgent가 해결하고자 했던 산업적 강화학습의 근본적인 도전과제부터 시작하여, 이를 해결하기 위해 설계된 독창적인 시스템 아키텍처, 핵심 알고리즘의 이론적 배경과 구현 방식, 그리고 실제 적용 사례에 이르기까지 ReAgent의 모든 측면을 상세히 분석한다. 또한, ReAgent의 공식적인 개발 중단 이후 그 유산을 잇는 Pearl 라이브러리를 소개함으로써 Meta의 응용 강화학습 기술의 흐름을 조망한다.

이 문서는 다음과 같이 구성된다.

2장: 산업 환경에서 강화학습을 적용할 때 마주하는 핵심 도전과제, 특히 오프라인 RL의 필연성과 분포 이동 문제에 대해 논한다.
3장: 데이터 처리부터 모델 학습, 서빙에 이르는 ReAgent의 엔드투엔드 아키텍처와 워크플로우를 상세히 설명한다.
4장: DQN 계열 알고리즘, 액터-크리틱 방법, 컨텍스트 기반 밴딧 등 ReAgent가 지원하는 핵심 알고리즘들을 이론적 수식과 함께 심도 있게 분석한다.
5장: 오프라인 RL의 핵심 기술인 오프라인 정책 평가(CPE)의 원리를 설명하고, ReAgent에 구현된 주요 추정기들을 비교 분석한다.
6장: 안전한 RL 적용을 위해 ReAgent가 제공하는 도메인 분석 도구와 행동 복제 같은 보조 도구들을 살펴본다.
7장: 페이스북 알림 최적화 사례를 통해 ReAgent가 실제 문제에 어떻게 적용되고 성과를 거두었는지 구체적으로 알아본다.
8장: ReAgent의 유산과 차세대 프레임워크인 Pearl을 소개하며 미래를 조망한다.
9장: 전체 내용을 요약하며 ReAgent가 남긴 핵심적인 기여와 교훈을 정리한다.

2. 산업 환경에서의 강화학습: 핵심 도전과제 (Reinforcement Learning in Industrial Settings: Core Challenges)

강화학습을 실제 산업 환경에 성공적으로 적용하기 위해서는 게임이나 시뮬레이션 기반의 학술 연구에서는 크게 부각되지 않았던 여러 근본적인 도전과제들을 해결해야 한다. ReAgent는 바로 이러한 문제들을 해결하기 위해 설계되었으며, 플랫폼의 구조와 기능은 이 도전과제들에 대한 직접적인 응답이라고 할 수 있다.

2.1 오프라인 강화학습 (Offline/Batch Reinforcement Learning)의 필연성

강화학습은 크게 온라인(online)과 오프라인(offline)의 두 가지 패러다임으로 나뉜다. 온라인 RL은 에이전트가 환경과 실시간으로 상호작용하며 데이터를 수집하고, 이를 통해 정책을 점진적으로 개선해 나가는 방식이다.11 이는 알파고(AlphaGo)와 같이 수많은 게임을 통해 학습하거나, 로봇이 안전한 시뮬레이션 환경에서 시행착오를 겪는 경우에 매우 효과적이다.7

그러나 대부분의 실제 산업 환경은 이러한 온라인 학습을 허용하지 않는다. 예를 들어, 의료 분야에서 환자에게 최적의 치료법을 찾기 위해 무작위적인 처방을 시도하거나, 자율주행차가 도로에서 위험한 주행을 시험하는 것은 윤리적으로나 안전상으로 불가능하다.11 페이스북과 같은 대규모 추천 시스템에서도 새로운 추천 정책을 검증 없이 사용자에게 바로 적용하는 것은 심각한 사용자 경험 저하나 비즈니스 손실로 이어질 수 있다.4

이러한 이유로 ReAgent는 오프라인 강화학습, 또는 배치 강화학습(Batch RL) 이라는 패러다임에 집중한다.2 오프라인 RL은 과거에 다른 정책(예: 기존의 룰 기반 시스템이나 지도학습 모델)에 의해 수집되어 저장된 정적인 데이터셋(static dataset)만을 사용하여 새로운 정책을 학습한다.15 학습 과정에서는 환경과의 추가적인 상호작용, 즉 새로운 데이터 수집이나 탐색(exploration)이 일절 일어나지 않는다. 이는 실제 시스템에 영향을 주지 않고 안전하게 정책을 개발할 수 있게 하지만, 동시에 온라인 RL에는 없는 새로운 기술적 난제들을 발생시킨다.

2.2 분포 이동 (Distributional Shift) 문제

오프라인 강화학습이 직면하는 가장 근본적이고 어려운 문제는 분포 이동(Distributional Shift) 이다. 이 문제는 학습에 사용되는 데이터의 분포와, 새롭게 학습된 정책이 실제로 상호작용하게 될 데이터의 분포가 다르기 때문에 발생한다.15

구체적으로, 주어진 데이터셋 $\mathcal{D}$ 는 과거의 특정 행동 정책 $\pi_{\beta}$ (behavior policy)에 의해 수집되었다. RL의 목표는 이 데이터셋을 이용해 $\pi_{\beta}$ 보다 더 나은 최적 정책 $\pi^{*}$ 에 가까운 새로운 정책 $\pi$ 를 학습하는 것이다. 하지만 새롭게 학습된 정책 $\pi$ 는 $\pi_{\beta}$ 와는 다른 행동을 선택할 가능성이 높다. 예를 들어, $\pi_{\beta}$ 가 특정 상태 $s$ 에서 행동 $a$ 를 거의 선택하지 않았다면, 데이터셋 $\mathcal{D}$ 에는 $(s, a)$ 쌍에 대한 정보가 거의 없을 것이다.

이때 함수 근사기(function approximator), 특히 심층 신경망(Deep Neural Network)은 학습 데이터에 존재하지 않거나 희소한 $(s, a)$ 쌍에 대해 Q-값, 즉 $Q(s, a)$ 를 예측해야 한다. 이 과정에서 신경망은 훈련 데이터 분포 밖의 영역으로 ’외삽(extrapolation)’을 시도하게 되며, 이는 종종 예측값의 신뢰도를 크게 떨어뜨리고 터무니없이 높은 Q-값을 출력하는 **외삽 오류(extrapolation error)**를 유발한다.4 에이전트는 이 잘못된 Q-값을 신뢰하여 치명적으로 나쁜 행동을 최적이라고 판단하게 되고, 이는 결국 정책의 성능 저하로 이어진다.

ReAgent는 이 분포 이동 문제를 완화하기 위해 여러 전략을 채택한다. 첫째, 학습된 정책 $\pi$ 가 행동 정책 $\pi_{\beta}$ 의 분포에서 너무 크게 벗어나지 않도록 명시적인 제약을 가하는 방법이 있다. 둘째, Q-값 자체에 규제(regularization)를 가하여 비현실적으로 높은 값으로 발산하는 것을 막는다.16 마지막으로, 가장 중요한 전략은 이후 5장에서 상세히 다룰 오프라인 정책 평가(CPE) 를 통해, 새로운 정책을 배포하기 전에 그 성능을 최대한 신뢰성 있게 예측하여 외삽 오류의 위험을 사전에 감지하고 방지하는 것이다.

2.3 탐험-활용 딜레마의 변형 (A Variation of the Exploration-Exploitation Dilemma)

온라인 RL의 핵심적인 딜레마는 **탐험(Exploration)**과 활용(Exploitation) 사이의 균형이다.17 ’활용’은 현재까지의 경험을 바탕으로 최선이라고 알려진 행동을 선택하여 단기적인 보상을 극대화하는 것이고, ’탐험’은 더 나은 행동을 발견할 가능성을 위해 불확실하지만 새로운 행동을 시도하는 것이다.

오프라인 RL 환경에서는 에이전트가 직접 탐험을 수행할 수 없으므로 이 딜레마가 다른 형태로 나타난다. 바로 주어진 데이터셋의 ’품질(quality)’과 ‘다양성(diversity)’ 사이의 트레이드오프다.16

데이터셋 품질: 최적의 정책을 학습하기 위해서는 데이터셋에 높은 보상을 얻는 성공적인 궤적(trajectory)들이 충분히 포함되어 있어야 한다. 즉, 전문가의 시연 데이터와 같이 ’품질’이 높은 데이터가 필요하다.
데이터셋 다양성: 하지만 데이터셋이 오직 최적의 행동들로만 구성되어 있다면, 에이전트는 suboptimal한 행동을 했을 때 어떤 결과가 초래되는지 학습할 수 없다. 더 나은 정책을 찾기 위해서는 행동 정책 $\pi_{\beta}$ 가 때로는 ‘나쁜’ 행동이나 다양한 탐험적 행동을 수행하여, 어떤 행동이 왜 좋은지를 비교하고 학습할 수 있는 ‘다양성’ 있는 데이터가 필요하다.

결국 오프라인 RL의 성능은 전적으로 주어진 데이터셋의 품질과 다양성에 의해 제한된다. ReAgent는 이러한 데이터 의존성을 깊이 이해하고 있으며, 단순히 알고리즘의 성능에만 집중하는 것이 아니라, 주어진 데이터를 최대한 안전하고 효율적으로 활용하는 데 초점을 맞춘다. 이는 ReAgent의 기술 스택이 ‘데이터 중심(data-centric)’ RL 접근법을 구체화한 결과물임을 보여준다. 전통적인 RL 연구가 알고리즘 자체의 개선에 집중하는 경향이 있다면, ReAgent는 데이터의 수집, 전처리, 정규화, 그리고 주어진 데이터의 한계를 명확히 인지하고 그 안에서 최적의 정책을 찾는 데 집중한다. Spark 기반 데이터 파이프라인, 특징 정규화 워크플로우, 그리고 CPE 스위트와 같은 구성 요소들은 모두 ’데이터’를 RL 문제의 핵심 요소로 다루고 있음을 명백히 보여준다. 이는 성공적인 산업 RL이 알고리즘의 우수성만큼이나 데이터 엔지니어링의 성숙도에 달려있다는 실용적인 철학을 강력하게 반영한다.

3. ReAgent 아키텍처 및 엔드투엔드 워크플로우 (ReAgent Architecture and End-to-End Workflow)

ReAgent는 대규모 산업 환경의 요구사항을 충족시키기 위해 데이터 수집부터 전처리, 학습, 평가, 배포, 그리고 피드백 수집에 이르는 전 과정을 통합한 엔드투엔드 워크플로우를 제공한다. 이 아키텍처는 RL 연구와 대규모 소프트웨어 엔지니어링 원칙이 교차하는 지점에 있으며, 각 구성 요소는 특정 산업적 문제를 해결하기 위해 유기적으로 연결되어 있다.

3.1 데이터 수집 및 전처리: Timeline 파이프라인 (Data Ingestion and Preprocessing: The Timeline Pipeline)

ReAgent 워크플로우의 시작점은 대규모로 생성되는 로그 데이터를 RL 학습에 적합한 형태로 가공하는 것이다. 이를 위해 ReAgent는 Apache Spark 기반의 ‘Timeline’ 이라는 데이터 전처리 파이프라인을 사용한다.4 이 파이프라인은 분산 컴퓨팅을 통해 수십억 건의 데이터를 효율적으로 처리할 수 있다.

Timeline 파이프라인에 입력되는 데이터는 일반적으로 다음과 같은 필드를 포함하는 비정형 로그 형태다: $MDP ID$ (각 의사결정 시퀀스를 식별), $Sequence Number$ (시퀀스 내 순서), $State Features$ (상태 정보), $Action$ (취해진 행동), $Action Probability$ (행동 정책의 확률), 그리고 $Metrics$ (다양한 성능 지표).4

파이프라인은 이 로그들을 결합하고 변환하여 강화학습의 기본 단위인 $(s, a, r, s', \text{possible\_next\_actions})$ 튜플의 시퀀스로 재구성한다. 여기서 주목할 만한 ReAgent의 독창적인 설계는 **유연한 보상 설계(flexible reward shaping)**를 가능하게 하는 ‘metrics’ 맵의 사용이다.4 전통적인 RL에서는 로그에 단일 스칼라 값의 보상( $r$ )이 기록되지만, ReAgent는 클릭, 좋아요, 공유, 체류 시간 등 다양한 성능 지표를 맵 형태로 그대로 저장한다. 실제 보상 값은 학습 시점에 사용자가 정의한 가중치 맵과 이 ‘metrics’ 맵의 내적(dot product)을 통해 동적으로 계산된다. 이 방식은 보상 함수를 변경하며 실험하고자 할 때마다 수 테라바이트에 달하는 데이터셋 전체를 재 생성할 필요 없이, 가중치만 변경하여 신속하게 반복 실험을 수행할 수 있게 해주는 매우 실용적인 혁신이다.

3.2 특징 공학 및 정규화 (Feature Engineering and Normalization)

대규모 추천 시스템에서 사용되는 특징(feature) 데이터는 매우 희소하고(sparse), 노이즈가 많으며, 특정 값에 치우친 임의의 분포를 갖는 경우가 많다. 심층 신경망 모델은 입력 특징이 평균 0, 분산 1의 정규 분포에 가까울 때 더 빠르고 안정적으로 수렴하는 경향이 있다.4 특히 순환적(recurrent) 구조를 갖는 RL 모델에서는 특징 값의 스케일이 불안정성에 큰 영향을 미칠 수 있어 정규화가 더욱 중요하다.

ReAgent는 이 문제를 해결하기 위해 자동화된 특징 정규화 워크플로우를 내장하고 있다.4 이 워크플로우는 먼저 학습 데이터셋 전체를 분석하여 각 특징의 유형(예: 이진, 확률, 연속형, 범주형 등)을 식별한다. 그 후, 각 유형에 가장 적합한 변환 함수(예: Box-Cox 변환, Quantile 변환)와 정규화 파라미터(평균, 표준편차 등)를 자동으로 결정하여 ’정규화 명세(normalization specification)’를 생성한다. 이 변환 과정은 데이터 전처리 단계에서 영구적으로 적용되는 것이 아니라, PyTorch 모델의 정방향 패스(forward pass) 중에 실시간으로 적용된다. 이 설계 덕분에 개발자는 데이터셋을 다시 생성하는 시간 소모적인 작업 없이, 정규화 명세를 수정하는 것만으로 다양한 특징 변환 전략을 빠르게 실험하고 최적의 조합을 찾을 수 있다.

3.3 분산 학습 아키텍처 (Distributed Training Architecture)

페이스북 규모의 서비스에서는 하루에 수천만 건 이상의 학습 샘플이 생성될 수 있으며, 특징 벡터의 차원 또한 수백에서 수천에 이른다. 이러한 대규모 데이터셋을 단일 머신에서 학습하는 것은 비현실적이다. 따라서 ReAgent는 PyTorch의 분산 학습 기능을 기반으로 다중 GPU 및 다중 노드(multi-node) 학습을 완벽하게 지원한다.1 이를 통해 수십 대의 머신에 분산된 수백 개의 GPU를 활용하여 모델 학습 시간을 수일에서 수 시간 단위로 단축시킬 수 있다. 이러한 분산 학습 능력은 산업적 규모의 클러스터 자원을 최대한 활용하고, 빠르게 변화하는 데이터 분포에 맞춰 모델을 신속하게 업데이트하는 데 필수적이다.

3.4 모델 서빙 및 배포 (Model Serving and Deployment)

학습이 완료된 모델을 실제 프로덕션 환경에 배포하여 실시간으로 추론을 수행하는 것은 엔드투엔드 플랫폼의 마지막이자 가장 중요한 단계다. ReAgent는 유연한 연구 환경(PyTorch)과 고성능 서빙 환경(Caffe2) 사이의 간극을 메우기 위해 **ONNX(Open Neural Network Exchange)**를 표준 모델 형식으로 사용한다.4

학습된 PyTorch 모델은 특징 정규화 단계를 포함한 전체 계산 그래프와 함께 ONNX 형식으로 변환(export)된다. 이 ONNX 모델은 이후 Caffe2 네트워크로 변환되어 서빙 시스템에 배포된다. Caffe2는 모바일 및 대규모 서버 환경에서의 고성능 추론에 최적화되어 있어, 낮은 지연 시간(low latency)으로 수천 대의 머신에서 안정적으로 모델을 실행할 수 있다.

이러한 서빙 인프라의 핵심에는 **ReAgent Serving Platform (RASP)**이 있다.1 RASP는 C++, PHP, Python 등 다양한 언어로 작성된 기존 서빙 시스템에 쉽게 내장(embed)될 수 있도록 설계된 경량 C++ 라이브러리다.1 RASP는 요청이 들어오면, 주어진 상태(context)와 여러 행동 후보(action candidates)를 입력받아 Caffe2 모델을 실행하고, 각 행동에 대한 Q-값을 계산하여 순위를 매긴 결과를 반환한다.20 이 모듈화된 접근 방식 덕분에, 페이스북 내의 다양한 팀들은 각자의 기존 시스템을 크게 변경하지 않고도 ReAgent의 RL 모델을 손쉽게 통합할 수 있었다.

3.5 폐쇄 루프 시스템 (Closed-Loop System)

ReAgent 아키텍처의 가장 강력한 특징 중 하나는 폐쇄 루프(closed-loop) 시스템을 형성한다는 점이다.4 배포된 RL 모델(RASP를 통해 서빙되는)이 내린 결정과 그로 인한 사용자의 상호작용 결과는 다시 로그 데이터로 수집된다. 이 로그는 일정 시간(수 시간 또는 수일)이 지난 후 보상 정보와 결합되어 다시 Timeline 파이프라인의 입력으로 들어간다. 이 과정을 통해 모델은 자신이 생성한 데이터를 바탕으로 점진적으로 재학습된다.

이 폐쇄 루프는 두 가지 중요한 의미를 가진다. 첫째, 모델이 점차 자신의 정책에 의해 생성된 데이터, 즉 온-폴리시(on-policy)에 가까운 데이터로 학습하게 된다. 이는 행동 정책과 학습 정책 간의 분포 이동 문제를 근본적으로 완화하여 외삽 오류를 줄이고 모델 성능을 크게 향상시킨다.4 둘째, 사용자 행동 패턴이나 콘텐츠 트렌드와 같이 끊임없이 변화하는 데이터 분포에 모델이 지속적으로 **적응(adapt)**할 수 있게 해준다.

이처럼 ReAgent의 아키텍처는 RL 알고리즘이라는 ’두뇌’가 산업 환경에서 제대로 기능하기 위해 필요한 강력한 ‘신경계’(RASP)와 ‘순환계’(Timeline 파이프라인)를 제공한다. PyTorch에서 ONNX를 거쳐 Caffe2로 이어지는 모델 변환 과정은 연구의 유연성과 프로덕션의 성능 사이의 간극을 잇는 핵심적인 ‘번역’ 과정이다. 이는 ReAgent가 순수한 RL 연구 프레임워크가 아니라, 데이터베이스, 분산 컴퓨팅, 모델 직렬화, 저지연 서빙 등 프로덕션 환경의 복잡한 엔지니어링 요구사항을 깊이 고려한 통합 시스템임을 명확히 보여준다.

4. 핵심 알고리즘 상세 분석 (Detailed Analysis of Core Algorithms)

ReAgent는 다양한 유형의 의사결정 문제를 해결하기 위해 광범위한 강화학습 및 밴딧 알고리즘을 지원한다. 이들 알고리즘은 대부분 오프라인 데이터로부터 안정적으로 학습할 수 있는 오프-폴리시(off-policy) 계열에 속한다. 본 장에서는 ReAgent가 지원하는 주요 알고리즘들의 이론적 배경과 핵심 아이디어를 상세히 분석한다.

4.1 가치 기반 오프-폴리시 알고리즘: DQN 계열 (Value-Based Off-Policy Algorithms: The DQN Family)

가치 기반 방법론은 최적의 행동-가치 함수(action-value function) $Q*(s, a)$ 를 학습하는 데 중점을 둔다. 이 함수는 상태 $s$ 에서 행동 $a$ 를 취한 후, 최적의 정책을 따랐을 때 얻게 될 미래 보상의 총합(기댓값)을 나타낸다. ReAgent는 이 계열의 대표적인 알고리즘인 Deep Q-Network(DQN)와 그 여러 변형들을 핵심적으로 지원한다.1

4.1.1 Deep Q-Network (DQN)

DQN은 전통적인 Q-러닝 알고리즘에 심층 신경망을 결합하여, 이미지와 같은 고차원 상태 공간을 직접 처리할 수 있게 만든 혁신적인 알고리즘이다.21 DQN의 학습 목표는 신경망 파라미터

$\theta$ 를 최적화하여 Q-네트워크 $Q(s, a; θ)$ 가 최적의 행동-가치 함수 $Q*(s, a)$ 를 근사하도록 만드는 것이다.

벨만 최적 방정식과 DQN 손실 함수 (Bellman Equation and DQN Loss Function)

최적의 Q-함수 Q*(s, a)는 다음과 같은 **벨만 최적 방정식(Bellman Optimality Equation)**을 만족한다는 성질을 가진다 23:

$Q^*(s, a) = \mathbb{E}_{s' \sim \mathcal{E}} \left[ r + \gamma \max_{a'} Q^*(s', a') \mid s, a \right]$
여기서 $r$ 은 보상, $\gamma$ 는 할인율(discount factor), $s'$ 는 다음 상태를 의미한다. 이 방정식은 현재 상태-행동 쌍의 최적 가치가 즉각적인 보상 $r$ 과 다음 상태에서 얻을 수 있는 최대 가치의 할인된 합과 같다는 재귀적 관계를 나타낸다.

DQN은 이 방정식을 지도학습 문제로 변환하여 해결한다. 즉, 현재 Q-네트워크의 예측값 $Q(s, a; θ)$ 와 벨만 방정식을 통해 계산된 ‘타겟(target)’ 값 사이의 오차를 최소화하도록 네트워크를 학습시킨다. $i$ 번째 반복(iteration)에서의 손실 함수 $L_i(θ_i)$ 는 일반적으로 다음과 같은 평균 제곱 오차(Mean Squared Error, MSE) 형태로 정의된다 23:

$L_i(\theta_i) = \mathbb{E}_{(s,a,r,s') \sim U(\mathcal{D})} \left[ \left( y_i - Q(s, a; \theta_i) \right)^2 \right]$
여기서 타겟 $y_i$ 는 다음과 같이 계산된다:

$y_i = r + \gamma \max_{a'} Q(s', a'; \theta_i^-)$
$\theta_i^-$ 는 타겟 네트워크(target network)의 파라미터이며, $U(D)$ 는 리플레이 버퍼 $D$ 에서 균등하게 샘플링하는 것을 의미한다.

핵심 기법 (Key Techniques)

DQN의 성공적인 학습을 위해서는 두 가지 핵심 기법이 필수적이다 21:

경험 리플레이 (Experience Replay): 에이전트가 경험한 상태 전환 $(s_t, a_t, r_{t+1}, s_{t+1})$ 튜플을 리플레이 버퍼(replay buffer)라는 큰 메모리 $D$ 에 저장한다.25 학습 시에는 이 버퍼에서 미니배치를 무작위로 샘플링하여 사용한다. 이 기법은 데이터 샘플 간의 시간적 상관관계(temporal correlation)를 깨뜨려 학습 과정을 안정화시키고, 과거의 경험을 재사용하여 데이터 효율성을 높인다.
타겟 네트워크 (Target Network): 손실 함수 계산 시 타겟 $y_i$ 를 생성하기 위해 별도의 ‘타겟 네트워크’ $Q(s, a; θ^-)$ 를 사용한다.26 이 타겟 네트워크의 가중치 $\theta^-$ 는 학습이 진행되는 주 네트워크(policy network)의 가중치 $\theta$ 와는 별개로 유지되며, 일정 주기마다 주 네트워크의 가중치로 동기화(복사)된다. 이는 학습 타겟이 매 스텝마다 급격하게 변하는 것을 방지하여 학습의 불안정성을 크게 줄여준다.

4.1.2 DQN 변형 알고리즘

ReAgent는 기본적인 DQN을 넘어 성능과 안정성을 개선한 다양한 변형 알고리즘들을 지원한다.1

Double DQN: 표준 DQN은 $\max$ 연산자로 인해 Q-값을 과대평가(overestimation)하는 경향이 있다. Double DQN은 이 문제를 완화하기 위해 행동을 선택하는 네트워크와 그 행동의 가치를 평가하는 네트워크를 분리한다.27 구체적으로, 타겟

$y_i$ 를 계산할 때 주 네트워크를 사용해 최적의 행동 $a*$ 를 선택하고( $a^* = \arg\max_{a'} Q(s', a'; \theta_i)$ ), 그 행동의 가치는 타겟 네트워크로 평가한다( $y_i = r + \gamma Q(s', a^*; \theta_i^-)$ ).

Dueling DQN: 이 아키텍처는 Q-값을 상태의 가치를 나타내는 **상태-가치 함수(state-value function) $V(s)$ **와 각 행동의 상대적인 중요도를 나타내는 **어드밴티지 함수(advantage function) $A(s, a)$ **의 합으로 분해한다: $Q(s, a) = V(s) + (A(s, a) - \frac{1}{|\mathcal{A}|} \sum_{a'} A(s, a'))$ . 이를 통해 어떤 상태가 좋은지와 무관하게 각 행동의 가치를 학습할 수 있어 학습 효율이 향상된다.
Distributional RL (C51, QR-DQN): 기존의 가치 기반 RL이 보상의 기댓값(Q-값)만을 학습하는 것과 달리, Distributional RL은 보상의 전체 확률 분포, 즉 **가치 분포(value distribution)**를 학습한다. 이를 통해 더 풍부한 정보를 바탕으로 안정적인 학습이 가능하며, 리스크에 민감한 의사결정 문제에 특히 효과적이다.

4.2 액터-크리틱 알고리즘 (Actor-Critic Algorithms)

액터-크리틱(Actor-Critic) 방법은 정책을 직접 학습하는 정책 기반(policy-based) 방법과 가치 함수를 학습하는 가치 기반(value-based) 방법을 결합한 하이브리드 접근법이다.

액터(Actor): 현재 상태를 입력받아 어떤 행동을 할지 결정하는 정책 $\pi(a|s)$ 를 담당한다.
크리틱(Critic): 액터가 선택한 행동이 얼마나 좋은지를 평가하는 가치 함수(주로 Q-함수)를 학습한다. 크리틱의 평가는 액터가 정책을 개선하는 방향을 제시하는 피드백으로 사용된다.

ReAgent는 연속적인 행동 공간(continuous action space)을 갖는 문제에 특히 강력한 최신 액터-크리틱 알고리즘들을 지원한다.1

Soft Actor-Critic (SAC): 최대 엔트로피 강화학습(maximum entropy RL) 프레임워크에 기반한 알고리즘이다. SAC의 목표는 기대 보상을 최대화하는 동시에, 정책의 엔트로피(불확실성)도 함께 최대화하는 것이다. 이는 에이전트가 가능한 한 무작위적으로 행동하도록 장려하여 탐색을 촉진하고, 최적에 가까운 여러 정책들을 발견하게 하여 학습의 안정성과 강건함(robustness)을 높인다.
Twin Delayed DDPG (TD3): DDPG(Deep Deterministic Policy Gradient) 알고리즘이 겪는 Q-값 과대평가와 학습 불안정성 문제를 해결하기 위해 세 가지 핵심 기법을 도입했다. (1) Clipped Double Q-Learning: 두 개의 독립적인 크리틱 네트워크를 학습하고, 타겟 Q-값을 계산할 때 둘 중 더 작은 값을 사용해 과대평가를 억제한다. (2) 지연된 정책 업데이트(Delayed Policy Updates): 액터(정책) 네트워크를 크리틱 네트워크보다 더 낮은 빈도로 업데이트하여 크리틱이 안정된 가치 추정치를 제공할 때 정책을 개선하도록 한다. (3) 타겟 정책 평활화(Target Policy Smoothing): 타겟 Q-값을 계산할 때 다음 행동에 작은 노이즈를 추가하여 Q-함수를 평활하게 만들어 과적합을 방지한다.

4.3 컨텍스트 기반 밴딧 (Contextual Bandits)

컨텍스트 기반 밴딧은 각 의사결정이 이전의 행동에 영향을 받지 않는 단일 단계(one-step) 강화학습 문제로 간주될 수 있다.28 이는 상태 전이(state transition)가 없는 특별한 경우의 MDP(Markov Decision Process)다. ReAgent는 개인화된 추천이나 광고 배치와 같이 즉각적인 피드백이 중요한 문제에 밴딧 알고리즘을 활용한다.4

LinUCB (Linear Upper Confidence Bound): LinUCB는 각 행동(arm) $a$ 의 기대 보상이 주어진 컨텍스트 특징 벡터 $x_a$ 에 대해 선형 관계( $E[r_a | x_a] = x_a^\top \theta_a^*$ )를 가진다고 가정하는 알고리즘이다.30 이 알고리즘은

불확실성에 기반한 낙관주의(optimism in the face of uncertainty) 원칙을 따른다. 즉, 추정된 기대 보상과 그 추정치의 불확실성을 모두 고려하여 행동을 선택한다.

LinUCB 선택 규칙: 시간 $t$ 에서 컨텍스트 $x_{t,a}$ 가 주어졌을 때, 행동 $a$ 를 선택하는 규칙은 다음과 같다 30:

$a_t = \arg\max_{a \in \mathcal{A}_t} \left( \hat{\theta}_a^\top x_{t,a} + \alpha \sqrt{x_{t,a}^\top A_a^{-1} x_{t,a}} \right)$
이 식의 첫 번째 항 $\hat{\theta}_a^\top x_{t,a}$ 는 현재까지의 데이터로 추정한 **기대 보상(estimated expected payoff)**으로, ’활용(exploitation)’에 해당한다. 두 번째 항 $\alpha \sqrt{x_{t,a}^\top A_a^{-1} x_{t,a}}$ 는 추정치의 **불확실성(uncertainty)**을 나타내는 **탐색 보너스(exploration bonus)**로, ’탐색(exploration)’에 해당한다.32 여기서

$A_a$ 는 해당 행동에 대해 관찰된 컨텍스트 데이터를 축적하는 행렬이며, $\alpha$ 는 탐색과 활용의 균형을 조절하는 하이퍼파라미터다.

4.4 추천 시스템 특화 알고리즘 (Algorithms for Recommender Systems)

많은 추천 문제는 단일 아이템을 선택하는 것이 아니라, 사용자에게 보여줄 아이템의 순서 있는 목록, 즉 **슬레이트(slate)**를 생성하는 문제다. ReAgent는 이러한 슬레이트 최적화 문제를 해결하기 위해 특화된 알고리즘을 제공한다.2

SlateQ & Seq2Slate: 이 알고리즘들은 슬레이트 내 아이템들 간의 상호작용(예: 순서 효과)을 고려하여 슬레이트 전체의 장기적인 가치를 평가하고 최적화하도록 설계되었다. 이는 각 아이템을 독립적으로 평가하는 전통적인 추천 방식보다 더 정교한 개인화를 가능하게 한다.

4.5 Table 1: ReAgent 지원 주요 알고리즘 요약 (Summary of Key Algorithms Supported by ReAgent)

ReAgent가 지원하는 다양한 알고리즘을 체계적으로 분류하면 다음과 같다. 이 표는 특정 문제 유형에 어떤 알고리즘이 적합한지 한눈에 파악할 수 있도록 돕고, 플랫폼의 기능적 범위를 명확히 제시한다.

분류 (Category)	알고리즘 (Algorithm)	핵심 아이디어 (Core Idea)	주요 적용 분야 (Primary Use Case)
가치 기반 (Value-Based)	DQN, Double DQN, Dueling DQN	신경망으로 Q-가치 함수를 근사. 벨만 방정식을 손실 함수로 활용.	이산적 행동 공간 문제 (예: 게임, 알림 전송 여부)
	Distributional RL (C51, QR-DQN)	보상의 기댓값 대신 전체 분포를 학습하여 더 안정적인 학습 추구.	리스크 민감 의사결정, 복잡한 보상 구조 문제
액터-크리틱 (Actor-Critic)	SAC (Soft Actor-Critic)	정책(Actor)과 가치 함수(Critic)를 동시에 학습. 최대 엔트로피로 탐색 장려.	연속적 행동 공간 문제 (예: 로보틱스 제어)
	TD3 (Twin Delayed DDPG)	이중 Critic과 지연된 업데이트로 Q-가치 과대평가 문제 해결.	연속적 행동 공간 문제
정책 경사 (Policy Gradient)	PPO (Proximal Policy Optimization)	정책 업데이트 크기를 클리핑하여 학습 안정성 확보.	이산/연속 행동 공간 문제
컨텍스트 기반 밴딧	LinUCB	컨텍스트 특징과 보상 간의 선형 관계를 가정. UCB로 탐색-활용 균형 조절.	개인화 추천, 광고 배치 (단일 단계 결정)
	Thompson Sampling	보상 분포에 대한 베이즈 추론을 통해 행동 선택.	탐색-활용 문제
추천 시스템	SlateQ, Seq2Slate	순서가 있는 아이템 목록(슬레이트) 전체의 가치를 평가하고 최적화.	뉴스피드 랭킹, 검색 결과 페이지

5. 오프라인 정책 평가 (Counterfactual Policy Evaluation - CPE)

5.1 CPE의 원리와 중요성 (Principle and Importance of CPE)

오프라인 정책 평가(Counterfactual Policy Evaluation, CPE), 또는 반사실적 정책 평가는 오프라인 강화학습의 성공을 위한 가장 핵심적인 기술 요소 중 하나다. CPE의 목표는 새롭게 학습한 평가 정책( $\pi_e$ , evaluation policy)을 실제 프로덕션 환경에 배포하지 않고, 과거의 행동 정책( $\pi_b$ , behavior policy)으로 수집된 로그 데이터만을 사용하여 $\pi_e$ 의 성능(즉, 기대 누적 보상)을 신뢰성 있게 예측하는 것이다.2

CPE가 중요한 이유는 산업 환경의 특수성 때문이다. 실제 서비스 환경에서 새로운 정책을 테스트하기 위해 온라인 A/B 테스트를 수행하는 것은 시간과 비용이 많이 들고, 때로는 사용자 경험에 부정적인 영향을 미칠 수 있는 위험을 동반한다.4 예를 들어, 수십 개의 후보 정책들을 모두 A/B 테스트하는 것은 거의 불가능하다. CPE는 이러한 온라인 테스트의 필요성을 최소화하고, 다수의 후보 정책들을 오프라인에서 안전하고 신속하게 스크리닝하여 가장 유망한 소수의 정책만을 최종 A/B 테스트 대상으로 선정할 수 있게 해준다. 이는 RL 모델의 개발 및 배포 주기를 획기적으로 단축시키고, 시스템의 안정성을 보장하는 데 필수적인 역할을 한다.

5.2 주요 CPE 추정기 분석 (Analysis of Key CPE Estimators)

ReAgent는 다양한 CPE 추정기(estimator)들을 자동으로 계산하여 제공하며, 각 추정기는 편향(bias)과 분산(variance) 사이의 트레이드오프에서 각기 다른 특성을 가진다.4

직접 방법 (Direct Method, DM): DM은 로그 데이터를 사용하여 보상 모델 $\hat{r}(s, a)$ 과 상태 전이 모델 $\hat{P}(s'|s, a)$ 을 학습한다.4 그 후, 이 학습된 환경 모델을 시뮬레이터처럼 사용하여 평가 정책 $\pi_e$ 를 실행하고, 이를 통해 얻어지는 기대 보상을 추정한다. 추정치는 다음과 같이 표현될 수 있다: $\hat{V}_{DM}(\pi_e) = \mathbb{E}_{s \sim d^{\pi_e}, a \sim \pi_e(s)}[\hat{r}(s, a)]$ . DM은 일반적으로 분산이 낮다는 장점이 있지만, 학습된 모델이 실제 환경을 정확하게 표현하지 못할 경우 높은 편향(bias)을 가질 수 있다. 즉, 모델의 정확도에 크게 의존한다.
중요도 샘플링 (Importance Sampling, IS): IS는 분포 이동 문제를 직접적으로 보정하는 통계적 기법이다. 행동 정책 $\pi_b$ 하에서 관찰된 궤적(trajectory)의 보상에 **중요도 가중치(importance weight)**를 곱하여 평가 정책 $\pi_e$ 하에서의 기대 보상을 추정한다.4 궤적 $\tau = (s_0, a_0,..., s_H, a_H)$ 에 대한 중요도 가중치는 $\rho(\tau) = \frac{P(\tau | \pi_e)}{P(\tau | \pi_b)} = \prod_{t=0}^{H} \frac{\pi_e(a_t|s_t)}{\pi_b(a_t|s_t)}$ 로 계산된다. IS 추정기는 점근적으로 편향이 없다는 강력한 이론적 장점을 가지지만, 두 정책 $\pi_e$ 와 $\pi_b$ 의 행동 분포가 크게 다를 경우 중요도 가중치의 분산이 기하급수적으로 커져 추정치가 극도로 불안정해지는 문제를 안고 있다.
이중 강건 추정기 (Doubly Robust, DR): DR 추정기는 DM과 IS의 장점을 결합하여 단점을 보완하려는 시도다.4 DR은 DM의 모델 기반 예측을 기본으로 사용하되, IS의 중요도 가중치를 이용해 모델의 예측 오차를 보정한다. DR 추정기의 중요한 특징은 ’이중 강건성’이다. 즉, 보상 모델

$\hat{r}$ 이나 행동 정책 모델 $\pi_b$ 둘 중 하나만 정확하게 추정되어도 전체 추정치의 편향이 낮게 유지된다. 이 덕분에 DR은 일반적으로 DM보다 편향에 강하고, IS보다 분산이 낮아 실제 상황에서 더 강건한 성능을 보인다.

순차적 DR (Sequential DR) 및 MAGIC: ReAgent는 긴 에피소드를 갖는 순차적 의사결정 문제에 DR을 확장한 순차적 DR(Sequential DR) 추정기와, 이를 가중 중요도 샘플링(Weighted Importance Sampling)으로 개선한 버전을 구현했다.4 특히, MAGIC 추정기는 DR과 DM을 결합하여 추정치의 평균 제곱 오차(Mean Squared Error, MSE)를 직접적으로 최적화함으로써 편향-분산 트레이드오프를 더욱 정교하게 조절하려는 시도다.4 이러한 순차적 추정기들은 데이터가 원래의 시간 순서대로 정렬되어 있어야 한다는 제약이 있다. ReAgent는 학습 시에는 데이터를 섞어 사용하더라도, 매 에포크(epoch)가 끝날 때마다 샘플들을 원래 순서대로 복원하여 CPE를 계산하는 독창적인 구현 방식을 통해 이 문제를 해결했다.

5.3 Table 2: 오프라인 정책 평가(CPE) 방법 비교 (Comparison of Offline Policy Evaluation (CPE) Methods)

다음 표는 ReAgent가 제공하는 핵심 CPE 방법들의 특성을 요약하여 비교한다. 이 표는 사용자가 특정 데이터셋과 문제 상황에 가장 적합한 평가 방법을 선택하는 데 실용적인 지침을 제공한다.

추정기 (Estimator)	원리 (Principle)	장점 (Pros)	단점 (Cons)
직접 방법 (DM)	보상 모델 $\hat{r}(s, a)$ 을 학습하여 새로운 정책의 기대 보상을 추정.	분산이 낮음 (Low Variance).	보상 모델이 부정확할 경우 편향이 높음 (High Bias).
중요도 샘플링 (IS)	정책 확률 비율 $\frac{\pi_e(a \vert s)}{\pi_b(a \vert s)}$ 로 보상에 가중치를 부여하여 분포 불일치 보정.	점근적으로 편향이 없음 (Asymptotically Unbiased).	두 정책이 다를 경우 분산이 매우 높음 (High Variance).
이중 강건 (DR)	DM과 IS를 결합. 보상 모델의 예측 오차를 IS로 보정.	보상 모델 또는 행동 정책 모델 중 하나만 정확해도 편향이 낮음 (Low Bias).	IS보다 분산이 낮지만 여전히 높을 수 있음.
MAGIC	DR과 DM을 결합하여 MSE를 직접 최적화.	편향-분산 트레이드오프를 효과적으로 조절.	구현이 더 복잡함.

6. 안전성 및 실제 적용을 위한 도구 (Tools for Safety and Practical Application)

ReAgent는 최첨단 알고리즘과 강력한 평가 도구 외에도, 강화학습을 실제 프로덕션 환경에 안전하고 효과적으로 적용하기 위한 여러 보조 도구들을 제공한다. 이 도구들은 RL 워크플로우의 각 단계에 내장된 체계적인 ‘실패 방지(fail-safe)’ 시스템을 구성하며, 이는 ReAgent가 학술적 연구를 넘어 실제 프로덕션 환경의 엄격한 요구사항을 얼마나 깊이 이해하고 있는지를 보여준다.

6.1 도메인 분석 도구 (Domain Analysis Tool)

이 도구는 과거 ’데이터 이해 도구(Data Understanding Tool)’로 불렸으며, RL 프로젝트의 가장 초기 단계인 문제 정의의 타당성을 검증하는 데 목적이 있다.4 강화학습에 익숙하지 않은 엔지니어가 문제를 잘못 정의하여 시간과 자원을 낭비하는 것을 방지하기 위해 설계되었다. 예를 들어, 상태(state)가 다음 상태나 보상을 예측하는 데 아무런 정보를 제공하지 않거나, 행동(action)이 시스템의 상태 변화에 영향을 미치지 않는다면, 해당 문제는 RL로 풀기에 적합하지 않을 수 있다.

도메인 분석 도구는 주어진 로그 데이터를 사용하여 환경의 간단한 동역학 모델(dynamics model)을 학습한다.2 그 후, 이 모델을 분석하여 다음과 같은 질문에 답한다 4:

MDP 가정 충족 여부: 현재 상태와 행동이 다음 상태와 보상을 예측하는 데 충분한 정보를 담고 있는가? 만약 그렇지 않다면, 상태 정의에 중요한 정보가 누락되었을 수 있다.
특징 중요도(Feature Importance): 어떤 상태 및 행동 특징들이 상태 전이와 보상 예측에 중요한 역할을 하는가? 중요도가 낮은 특징을 제거하면 모델을 단순화하고 학습 효율을 높일 수 있다.
문제 유형 식별: 만약 상태가 보상 예측에 영향을 미치지 않는다면, 문제는 더 단순한 컨텍스트 기반 밴딧 문제로 환원될 수 있다.

이러한 분석을 통해, 개발자는 비용이 많이 드는 본격적인 학습 및 온라인 테스트 단계로 넘어가기 전에 문제 정의를 수정하고 개선할 기회를 얻는다. 이는 ‘입력’ 단계에서의 핵심적인 안전장치 역할을 한다.

6.2 행동 복제 (Behavior Cloning)

**행동 복제(Behavior Cloning)**는 오프라인 RL에서 안전성과 학습 효율성을 높이기 위해 널리 사용되는 기법이다.2 이는 로그 데이터에 기록된 행동 정책 $\pi_b$ 를 모방하도록 지도학습(supervised learning) 방식으로 정책 네트워크를 사전 학습(pre-training)하는 것을 의미한다. 즉, 주어진 상태 $s$ 에 대해 로그에 기록된 행동 $a$ 를 예측하도록 모델을 학습시킨다.

행동 복제는 두 가지 주요 이점을 제공한다.

안전한 초기화(Safe Initialization): 무작위로 초기화된 정책은 학습 초기에 데이터 분포에서 매우 벗어난, 예측 불가능하고 위험한 행동을 선택할 수 있다. 행동 복제를 통해 정책을 초기화하면, 학습이 적어도 현재 시스템을 운영하고 있는 검증된 행동 정책과 유사한 지점에서 시작되므로 안정성이 크게 향상된다.
학습 가속화(Learning Acceleration): 합리적인 초기 정책에서 학습을 시작하면, 완전히 무작위적인 정책에서 시작하는 것보다 더 빠르게 좋은 성능의 정책으로 수렴할 수 있다.

행동 복제는 ‘학습’ 단계에서 에이전트가 불안정한 탐색으로 인해 실패하는 것을 방지하는 중요한 안전장치다.

이러한 보조 도구들은 개별적인 기능의 집합이 아니라, ReAgent의 체계적인 위험 관리 철학을 보여주는 증거다. 도메인 분석 도구는 ‘잘못 정의된 문제를 푸는’ 실패를, 행동 복제는 ’불안정한 초기 학습’으로 인한 실패를, 그리고 CPE 스위트는 ‘검증되지 않은 정책을 배포하는’ 실패를 각각 방지한다. 이처럼 RL 워크플로우의 전 단계에 걸쳐 실패 가능성을 체계적으로 줄여나가는 접근 방식이야말로 ReAgent를 성공적인 산업용 RL 플랫폼으로 만든 핵심 요인 중 하나다.

7. 실제 적용 사례 연구: 페이스북 알림 최적화 (Case Study: Optimizing Facebook Notifications)

ReAgent(당시 Horizon)의 가치와 성능을 입증한 대표적인 사례는 페이스북의 푸시 알림(push notification) 시스템 최적화 프로젝트다.4 이 사례는 RL의 핵심 개념(상태, 행동, 보상)이 어떻게 실제 비즈니스 문제에 매핑되고, 엔드투엔드 플랫폼을 통해 어떻게 성공적으로 배포될 수 있는지를 구체적으로 보여준다.

7.1 문제 정의 (Problem Formulation)

알림 시스템의 전통적인 목표는 클릭률(Click-Through Rate, CTR)과 같은 단기적인 지표를 최대화하는 것이었다. 그러나 너무 많은 알림은 사용자 피로도를 높여 장기적으로는 사용자의 앱 이탈을 유발할 수 있다. 따라서 이 프로젝트의 목표는 단순히 클릭을 유도하는 것을 넘어, 사용자의 장기적인 참여(long-term engagement)를 극대화하는 알림 정책을 학습하는 것으로 재정의되었다.4

이 목표를 달성하기 위해 문제는 다음과 같이 MDP(Markov Decision Process)로 공식화되었다:

상태 (State, $s$ ): 상태는 특정 시점에 알림을 보낼지 여부를 결정하는 데 필요한 모든 컨텍스트 정보를 포함한다. 여기에는 사용자 관련 특징(예: 과거 앱 사용 빈도, 알림과의 상호작용 이력, 인구통계학적 정보)과 알림 후보 관련 특징(예: 알림의 유형, 내용, 생성 시간)이 모두 포함된다.4
행동 (Action, $a$ ): 행동 공간은 매우 단순하게 정의되었다. 각 알림 후보에 대해 시스템이 취할 수 있는 행동은 ‘보낸다(send)’ 또는 **‘보내지 않는다(drop)’**의 두 가지 이산적 행동뿐이다.4
보상 (Reward, $r$ ): 보상 함수는 장기적인 가치를 반영하도록 신중하게 설계되었다.
양의 보상: 알림을 보낸 후, 사용자가 페이스북 앱을 방문하여 콘텐츠와 상호작용(예: 좋아요, 댓글, 공유)하는 등 긍정적인 활동을 보이면 양의 보상이 주어진다.
음의 보상: 알림을 보내는 행위 자체에는 작은 음의 보상(비용)을 부여한다. 이는 불필요한 알림 발송을 억제하고 사용자 피로도를 관리하기 위함이다.

이러한 보상 설계를 통해, RL 에이전트는 단순히 클릭을 유발하는 알림이 아니라, 사용자의 실질적인 앱 내 활동으로 이어지는 ‘가치 있는’ 알림을 보내도록 학습하게 된다.4

7.2 적용 모델 및 학습 과정 (Model and Training Process)

이 문제의 행동 공간은 ’보낸다’와 ’보내지 않는다’의 두 가지로 구성된 이산적 공간이므로, DQN(Deep Q-Network) 모델이 자연스러운 선택이었다.4 DQN 모델은 주어진 상태(사용자 및 알림 특징)를 입력받아 ‘send’ 행동의 Q-값과 ‘drop’ 행동의 Q-값을 출력하고, 에이전트는 더 높은 Q-값을 갖는 행동을 선택한다.

학습 과정은 ReAgent의 폐쇄 루프 시스템을 통해 점진적으로 이루어졌다 4:

초기 학습 (Off-Policy Learning): 프로젝트 초기에는 RL 모델이 존재하지 않았으므로, 기존에 운영되던 지도학습 기반의 알림 모델이 생성한 방대한 양의 로그 데이터를 사용했다. ReAgent는 이 데이터를 오프-폴리시(off-policy) 상태에서 학습하여 첫 번째 버전의 RL 모델을 구축했다.
온라인 배포 및 데이터 수집: 학습된 RL 모델은 A/B 테스트를 통해 프로덕션 환경의 일부 트래픽에 배포되었다. 이 모델이 내린 결정(send/drop)과 그 결과(사용자 반응)는 다시 로그로 기록되었다.
점진적 재학습 (Incremental Retraining): RL 모델이 직접 생성한 새로운 데이터가 축적되면서, 모델은 매일 이 데이터를 사용하여 점진적으로 재학습되었다. 이 과정을 통해 모델은 점차 자신의 정책에 의해 생성된 데이터, 즉 온-폴리시(on-policy)에 가까운 데이터로 학습하게 되었다.

7.3 A/B 테스트 결과 및 성과 (A/B Test Results and Performance)

RL 기반 정책의 성능은 기존 프로덕션 환경에서 사용되던 지도학습 모델과의 엄격한 A/B 테스트를 통해 검증되었다.4

초기 성능: 순수하게 오프-폴리시 데이터(지도학습 모델의 로그)로만 학습된 초기 RL 모델은 A/B 테스트에서 기존 모델보다 낮은 성능을 보였다. 이는 오프라인 RL의 전형적인 어려움인 분포 이동 문제 때문인 것으로 분석된다. 즉, RL 모델이 학습 데이터에는 없던 새로운 방식으로 행동하면서 외삽 오류가 발생한 것이다.
성능 향상: 하지만 ReAgent의 폐쇄 루프를 통해 RL 모델이 자신이 생성한 데이터로 점차 재학습되면서 성능은 극적으로 향상되기 시작했다. 온-폴리시 데이터의 비중이 높아질수록 모델은 분포 이동 문제를 극복하고 더 정확한 Q-값을 학습할 수 있었다.
최종 결과: 충분한 재학습 이후, 최종 RL 모델은 주요 비즈니스 지표에서 기존의 지도학습 모델을 통계적으로 유의미하게 능가했으며, 성공적으로 프로덕션 시스템을 대체했다.4

이 사례는 ReAgent 플랫폼의 핵심적인 가치를 명확하게 보여준다. 즉, (1) 대규모 로그 데이터를 처리하고 오프-폴리시 알고리즘을 학습시키는 능력, (2) 실제 비즈니스 목표를 반영하는 정교한 보상 설계의 중요성, 그리고 (3) 점진적인 재학습을 통한 폐쇄 루프 시스템이 분포 이동 문제를 극복하고 실제 프로덕션 환경에서 최적의 성능을 달성하는 데 얼마나 결정적인지를 입증했다.

8. ReAgent의 유산과 미래: Pearl (The Legacy and Future of ReAgent: Pearl)

ReAgent는 비록 공식적으로 아카이브되었지만, 산업적 규모의 응용 강화학습 분야에 남긴 기술적 유산과 철학은 여전히 중요하며, 그 정신은 차세대 프레임워크인 Pearl을 통해 계승되고 있다.

8.1 ReAgent 프로젝트의 기여와 한계 (Contributions and Limitations of ReAgent)

ReAgent의 핵심 기여는 다음과 같이 요약할 수 있다.

산업적 RL의 청사진 제시: ReAgent는 시뮬레이터가 없는 대규모 실제 환경에서 RL을 성공적으로 적용하기 위한 엔드투엔드 프레임워크의 구체적인 청사진을 세계 최초로 제시했다. 이는 학술적 이론에 머물러 있던 RL을 실제 비즈니스 가치를 창출하는 기술로 끌어올린 중요한 이정표다.4
오프라인 RL의 실용성 입증: 대규모 데이터 처리 파이프라인, 강력한 오프라인 정책 평가(CPE) 스위트, 그리고 안전한 배포를 위한 도구들을 통합함으로써, ReAgent는 오프라인 RL이 이론적으로 가능할 뿐만 아니라 실제 프로덕션 환경에서 신뢰성 있게 운영될 수 있음을 입증했다.8
엔지니어링과 연구의 결합: ReAgent는 성공적인 응용 RL이 단순히 뛰어난 알고리즘만으로는 불가능하며, 데이터 엔지니어링, 분산 시스템, 저지연 서빙, 엄격한 평가 프로토콜 등 견고한 소프트웨어 엔지니어링이 결합되어야 함을 명확히 보여주었다.

반면, ReAgent의 잠재적 한계는 그 설계 자체에서 비롯된다.

유연성 부족: ReAgent는 페이스북의 특정 대규모 추천 및 최적화 문제를 해결하기 위해 고도로 통합된 일체형(monolithic) 시스템으로 설계되었다. 이로 인해 새로운 RL 연구 아이디어를 실험하거나, 기존 문제 유형과 다른 새로운 종류의 애플리케이션에 적용하기에는 유연성이 다소 부족했을 수 있다.
확장성: 모든 구성 요소가 긴밀하게 연결된 엔드투엔드 플랫폼의 특성상, 특정 부분만을 독립적으로 사용하거나 수정하여 다른 시스템에 통합하는 것이 상대적으로 어려울 수 있다.

8.2 차세대 프레임워크 Pearl 소개 (Introduction to the Next-Generation Framework: Pearl)

ReAgent의 경험과 교훈을 바탕으로, Meta의 응용 강화학습 팀은 차세대 라이브러리인 Pearl을 개발했다.9 Pearl은 ’Production-Ready Reinforcement Learning AI Agent Library’를 표방하며, ReAgent의 강점은 계승하되 한계를 극복하는 방향으로 설계되었다.34

Pearl의 핵심 특징은 다음과 같다.

고도의 모듈성(High Modularity): Pearl의 가장 큰 특징은 철저한 모듈식 설계다.9 사용자는 정책 학습 알고리즘, 지능적 탐색 전략, 안전 제약 모듈, 부분 관측 환경을 위한 기록 요약 모듈 등 다양한 구성 요소를 독립적으로 선택하고 조합하여 자신의 특정 사용 사례에 최적화된 맞춤형 RL 에이전트를 구축할 수 있다.10 이는 ReAgent의 일체형 구조와 대비되는 가장 큰 차이점이다.
현실 세계 문제에 대한 집중: Pearl은 실제 프로덕션 환경에서 발생하는 복잡하고 어려운 문제들을 해결하는 데 중점을 둔다. 여기에는 불완전한 관측 가능성(partial observability), 희소한 피드백(sparse feedback), 높은 환경 불확실성(high stochasticity), 그리고 추천 아이템이 수시로 변하는 **동적 행동 공간(dynamic action spaces)**과 같은 문제들이 포함된다.9
광범위한 적용 분야: Pearl은 이미 Meta 내부에서 추천 시스템, 광고 경매 시스템의 페이싱(pacing) 조절, 컨텍스트 기반 밴딧을 이용한 광고 크리에이티브 선택 등 다양한 산업 애플리케이션에 성공적으로 적용되고 있다.9 이는 Pearl의 모듈식 접근법이 다양한 비즈니스 문제에 유연하게 대응할 수 있음을 보여준다.

결론적으로, ReAgent에서 Pearl로의 전환은 Meta의 응용 RL 전략이 ’특정 문제를 해결하는 고도로 통합된 플랫폼’에서 ’다양한 문제 해결을 지원하는 유연한 툴킷’으로 진화했음을 의미한다. ReAgent가 산업적 RL의 ’가능성’을 증명했다면, Pearl은 그 ’확장성’과 ’범용성’을 목표로 하고 있다.

9. 결론 (Conclusion)

9.1 ReAgent의 핵심 기여 요약 (Summary of ReAgent’s Core Contributions)

Meta의 ReAgent 플랫폼은 응용 강화학습의 역사에서 중요한 이정표를 세웠다. 이 플랫폼은 학술적 연구의 영역에 머물러 있던 강화학습 기술을 실제 수십억 명의 사용자를 대상으로 하는 대규모 산업 환경에 성공적으로 적용하고 그 가치를 입증한 최초의 엔드투엔드 시스템 중 하나다.

ReAgent의 핵심 기여는 다음 세 가지로 요약할 수 있다.

첫째, ReAgent는 산업적 RL 문제에 대한 포괄적인 해결책의 청사진을 제시했다. 시뮬레이터의 부재, 느린 피드백 루프, 대규모 정적 데이터라는 현실적 제약 조건 속에서, 오프라인 강화학습 패러다임을 중심으로 데이터 전처리, 분산 학습, 모델 서빙, 그리고 피드백 루프에 이르는 완전한 워크플로우를 정립했다. 이는 이후 등장하는 많은 산업용 RL 시스템의 참조 모델이 되었다.

둘째, 오프라인 정책 평가(CPE)의 중요성을 부각시키고 실제 시스템에 통합하는 방법을 보여주었다. 위험하고 비용이 많이 드는 온라인 테스트를 최소화하면서도 새로운 정책의 성능을 신뢰성 있게 예측하는 CPE 기술은 오프라인 RL의 실용성을 위한 필수 불가결한 요소다. ReAgent는 다양한 CPE 추정기를 시스템에 내장하고 자동화함으로써, 데이터 기반의 안전하고 효율적인 의사결정 프로세스를 구현했다.

셋째, 성공적인 RL 적용을 위한 ‘안전제일’ 철학을 구체화했다. 도메인 분석 도구를 통한 문제 정의 검증, 행동 복제를 통한 안정적인 학습 초기화 등은 단순히 알고리즘의 성능을 높이는 것을 넘어, 예측 불가능한 실패를 방지하고 시스템의 안정성을 확보하는 데 중점을 둔 설계 철학을 보여준다.

9.2 미래 전망 (Future Outlook)

비록 ReAgent 프로젝트는 공식적으로 아카이브되었지만, 그 기술적 유산과 철학은 Meta의 차세대 RL 라이브러리인 Pearl을 통해 계승되고 발전하고 있다. ReAgent가 고도로 통합된 플랫폼으로서 산업적 RL의 ’가능성’을 증명했다면, Pearl은 고도의 모듈성을 바탕으로 한 유연한 ’툴킷’으로서 RL의 ’확장성’과 ’범용성’을 추구한다. 이는 RL 기술이 더욱 성숙해지면서 다양한 도메인의 특수한 요구사항에 맞춰 유연하게 적용될 수 있는 방향으로 발전하고 있음을 시사한다.

궁극적으로 ReAgent의 사례는 우리에게 중요한 교훈을 남긴다. 실제 세계에서 의미 있는 가치를 창출하는 강화학습 시스템을 구축하는 것은 단순히 가장 뛰어난 최신 알고리즘을 구현하는 것만으로는 충분하지 않다. 그것은 대규모 데이터를 다루는 견고한 데이터 엔지니어링, 안정적이고 확장 가능한 시스템 아키텍처, 그리고 무엇보다도 엄격한 평가 및 안전 프로토콜이 유기적으로 결합될 때 비로소 가능하다. ReAgent가 개척한 이 길은 앞으로 더 많은 산업 분야에서 강화학습이 혁신을 이끌어내는 데 굳건한 기반이 될 것이다.

10. 참고 자료

ReAgent - AI at Meta, https://ai.meta.com/tools/reagent/
facebookresearch/ReAgent: A platform for Reasoning … - GitHub, https://github.com/facebookresearch/ReAgent
reagent · PyPI, https://pypi.org/project/reagent/
Horizon: Facebook’s Open Source Applied Reinforcement … - arXiv, https://arxiv.org/abs/1811.00260
Horizon: Facebook’s Open Source Applied Reinforcement Learning Platform, https://research.facebook.com/publications/horizon-facebooks-open-source-applied-reinforcement-learning-platform/
Batch Reinforcement Learning - Thomas Gabel, http://tgabel.de/fileadmin/user_upload/documents/Lange_Gabel_EtAl_RL-Book-12.pdf
Enterprise Applications of Reinforcement Learning: Recommenders and Simulation Modeling | Anyscale, https://www.anyscale.com/blog/enterprise-applications-of-reinforcement-learning-recommenders-and-simulation-modeling
Facebook makes big advances in AI reasoning and machine translation - SiliconANGLE, https://siliconangle.com/2019/10/16/facebook-makes-big-advances-ai-reasoning-machine-translation/
facebookresearch/Pearl: A Production-ready … - GitHub, https://github.com/facebookresearch/Pearl
Pearl - A Production-ready Reinforcement Learning AI Agent Library: Welcome to Pearl’s official website!, https://pearlagent.github.io/
Online and Offline Reinforcement Learning - GeeksforGeeks, https://www.geeksforgeeks.org/deep-learning/online-and-offline-reinforcement-learning/
Offline vs. Online Reinforcement Learning - Hugging Face Deep RL Course, https://huggingface.co/learn/deep-rl-course/unitbonus3/offline-online
Best Reinforcement Learning Tutorials, Examples, Projects, and Courses - Neptune.ai, https://neptune.ai/blog/best-reinforcement-learning-tutorials-examples-projects-and-courses
[2006.02579] Causality and Batch Reinforcement Learning: Complementary Approaches To Planning In Unknown Domains - arXiv, https://arxiv.org/abs/2006.02579
What is offline reinforcement learning？ : r/reinforcementlearning - Reddit, https://www.reddit.com/r/reinforcementlearning/comments/utnhia/what_is_offline_reinforcement_learning/
OFFLINE REINFORCEMENT LEARNING HANDS-ON, https://offline-rl-neurips.github.io/pdf/52.pdf
An Introduction to Contextual Bandits - GetStream.io, https://getstream.io/blog/introduction-contextual-bandits/
Introduction to Contextual Multi-bandit Algorithm - Qing Wang’s Homepage, https://kesyren.github.io/download/ppt/Introduction%20to%20Contextual%20Multi-bandit%20Algorithm.pdf
Top 6 Reinforcement Learning Tools to Use - Turing, https://www.turing.com/kb/best-tools-for-reinforcement-learning
Open-sourcing ReAgent, a modular, end-to-end platform for building reasoning systems, https://ai.meta.com/blog/open-sourcing-reagent-a-platform-for-reasoning-systems/
[1901.00137] A Theoretical Analysis of Deep Q-Learning - arXiv, https://arxiv.org/abs/1901.00137
[1711.07478] Implementing the Deep Q-Network - arXiv, https://arxiv.org/abs/1711.07478
How is the DQN loss derived from (or theoretically motivated by) the …, https://ai.stackexchange.com/questions/25086/how-is-the-dqn-loss-derived-from-or-theoretically-motivated-by-the-bellman-equ
Understanding the Bellman Equation in Reinforcement Learning - DataCamp, https://www.datacamp.com/tutorial/bellman-equation-reinforcement-learning
Reinforcement Learning (DQN) Tutorial - PyTorch documentation, https://docs.pytorch.org/tutorials/intermediate/reinforcement_q_learning.html
[D] Deep Q-network training process : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/8k2w49/d_deep_qnetwork_training_process/
[1509.06461] Deep Reinforcement Learning with Double Q-learning - arXiv, https://arxiv.org/abs/1509.06461
Contextual Bandits — VowpalWabbit latest documentation, https://vowpalwabbit.org/tutorials/contextual_bandits.html
An Overview of Contextual Bandits - Towards Data Science, https://towardsdatascience.com/an-overview-of-contextual-bandits-53ac3aa45034/
A Contextual-Bandit Approach to Personalized News Article …, https://arxiv.org/pdf/1003.0146
Linear Upper Confidence Bound Algorithm for Contextual Bandit Problem with Piled Rewards, https://www.csie.ntu.edu.tw/~htlin/paper/doc/pakdd16piled.pdf
CB-LINUCB - Kaggle, https://www.kaggle.com/code/phamvanvung/cb-linucb
[D] How is confidence bound derived for LinUCB : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/s1erkb/d_how_is_confidence_bound_derived_for_linucb/
Pearl: A Production-Ready Reinforcement Learning Agent, https://www.jmlr.org/papers/v25/24-0196.html